“强化学习”专利关键词查询_检索下载_查询列表_检索列表_行业专利分布_钻瓜专利网

钻瓜专利网为您找到相关结果798149个，建议您升级VIP下载更多相关专利

[发明专利]学习装置和学习方法-CN201780078843.5在审
发明人：中田健人;成平拓也;铃木洋贵;大里章人 -专利权人：索尼公司
申请日： 2017-12-14 - 公布日： 2019-08-02 - 主分类号： G06N20/00 文献下载
摘要：本公开内容涉及一种学习装置和学习方法，利用所述学习装置和学习方法可以基于用户输入来容易地校正强化学习模型。显示控制部使显示部显示与强化学习模型相关的强化学习模型信息。校正部基于来自用户的关于强化学习模型信息的输入来校正强化学习模型。本公开内容可以应用于例如个人计算机PC，其基于来自用户的输入来校正强化学习模型并且通过强化学习、使用经校正的强化学习模型来学习代理体的移动策略。
强化学习校正学习装置模型信息个人计算机PC 学习显示控制部移动策略代理体校正部应用

[发明专利]基于多维度数据增强的强化学习方法及装置-CN202310382422.9在审
发明人：暴宇健 -专利权人：北京龙智数科科技服务有限公司
申请日： 2023-04-11 - 公布日： 2023-05-12 - 主分类号： G06T5/00 文献下载
摘要：本公开涉及机器学习技术领域，提供了一种基于多维度数据增强的强化学习方法及装置。该方法包括：获取训练数据集，并对训练数据集中的训练样本进行图像数据增强处理；将经过图像数据增强处理后的训练数据集中的训练样本作为强化学习中的状态输入到强化学习模型，利用强化学习模型对应的强化学习算法训练强化学习模型；在将训练样本输入到强化学习模型，以对强化学习模型进行训练的过程中：在强化学习模型内部处理训练样本得到样本向量后，对样本向量进行向量数据增强处理，以基于向量数据增强处理后的样本向量训练强化学习模型。采用上述技术手段，解决现有技术中，传统强化学习训练耗时以及训练的模型泛化性能差等问题。
基于多维度数增强强化学习方法装置

[发明专利]强化学习训练方法及装置、电子设备、存储介质-CN202210153542.7在审
发明人：金丹;唐思琦;李明强 -专利权人：中国电子科技集团公司信息科学研究院
申请日： 2022-02-18 - 公布日： 2022-05-24 - 主分类号： G06N20/20 文献下载
摘要：本公开涉及强化学习技术领域，提供一种强化学习训练方法及装置、电子设备、存储介质，方法包括：基于源任务场景，对预设的强化学习模型进行训练，更新强化学习模型的网络参数，得到初始强化学习模型；分别确定初始强化学习模型中各个网络参数对于前一个任务场景的重要性，得到各个网络参数对应的第一重要性系数；基于根据第一重要性系数确定的损失函数，在预设的当前任务场景中对初始强化学习模型进行训练，更新初始强化学习模型的网络参数，得到目标强化学习模型。本公开能够约束网络参数的更新方向，不仅提高目标强化学习模型的泛化能力，还能使目标强化学习模型在不同的任务场景中均具有较好的性能表现，同时提高了强化学习模型的训练效率。
强化学习训练方法装置电子设备存储介质

[发明专利]一种深度强化学习模型的组合方法、装置及计算机设备-CN202010009647.6在审
发明人：温建伟;王宇杰;袁潮;方璐 -专利权人：北京拙河科技有限公司
申请日： 2020-01-06 - 公布日： 2020-06-05 - 主分类号： G06N3/04 文献下载
摘要：本文公开了一种深度强化学习模型的组合方法、装置及计算机设备，涉及深度强化学习技术。本文公开的一种深度强化学习模型的组合方法，包括：确定组合使用的多个深度强化学习模型中每个深度强化学习模型的权重信息，将待处理数据分别传输至组合使用的多个深度强化学习模型，得到多个输出数据；对多个输出数据按照对应的深度强化学习模型的权重信息进行加权平均值计算，计算的结果为组合使用多个深度强化学习模型的输出结果。本申请技术方案基于不同的深度强化学习模型的权重信息，确定组合使用多个深度强化学习模型的输出结果。得到的输出结果更准确更高效。
一种深度强化学习模型组合方法装置计算机设备

[发明专利]一种模型训练方法、装置、系统及可读存储介质-CN202211273736.7在审
发明人：张凯 -专利权人：太保科技有限公司
申请日： 2022-10-18 - 公布日： 2022-12-30 - 主分类号： G06Q10/10 文献下载
摘要：一种模型训练方法、装置、系统及可读存储介质，应用于强化学习技术领域。该方法包括：判断强化学习模型是否收敛；若强化学习模型不收敛，则随机选择一个软件环境并生成一个随机数；判断机数是否大于预设阈值；若否，则随机选取一条训练数据；对训练数据进行离线强化学习；若是，则对软件环境进行在线强化学习；完成强化学习后，再次判断强化学习模型是否收敛；若强化学习模型不收敛，则再次随机选择一个软件环境并生成一个随机数；若强化学习模型收敛，则结束训练。由此，本申请基于强化学习算法训练模型，使模型充分学习已知的容错知识，并在相类似错误发生时可以自动处理，大大提高流程容错性。
一种模型训练方法装置系统可读存储介质

[发明专利]基于时空强化学习的跨模态视频时刻定位方法-CN202010562550.8在审
发明人：曹达;曾雅文;荣辉桂;朱宁波;陈浩;秦拯 -专利权人：湖南大学
申请日： 2020-06-18 - 公布日： 2020-10-16 - 主分类号： G06F16/732 文献下载
摘要：本发明提供了一种基于时空强化学习的跨模态视频时刻定位方法，包括以下步骤：S01、输入完整视频和查询语句，抽取视频特征和查询语句特征，构建强化学习环境；S02、基于强化学习环境信息进行时序强化学习并定位视频的时序边界，环境信息包括视频全局特征、视频局部特征、定位边界和查询语句特征；S03、基于时序强化学习的定位边界进行空间强化学习，在所述环境中处理空间信息并逐帧追踪相关场景，并用注意力机制过滤无关信息；S04、根据空间强化学习更新时序强化学习的局部片段特征，使得所述空间强化学习和所述时序强化学习交替训练，直至收敛，得到对应查询语句的视频时刻片段。
基于时空强化学习跨模态视频时刻定位方法

[发明专利]一种基于强化学习的取送货车辆路径规划方法-CN202111355807.3在审
发明人：刘发贵;赖承启 -专利权人：华南理工大学
申请日： 2021-11-16 - 公布日： 2022-03-25 - 主分类号： G05D1/02 文献下载
摘要：本发明公开了一种基于强化学习的取送货车辆路径规划方法。所述方法包括以下步骤：构建基于A2C框架的强化学习模型及其优化目标；初始化强化学习模型所有的参数值，随机生成数据集；构建强化学习模型的训练过程，将生成的数据集输入强化学习模型，计算每一轮训练结果的奖励值；根据损失值采用基于策略梯度的强化学习方法对强化学习模型进行优化；设置最大训练轮数，重复训练得到训练完成的强化学习模型，采用训练完成的强化学习模型进行取送货车辆路径规划。
一种基于强化学习送货车辆路径规划方法

[发明专利]基于TD3强化学习算法的DC-DC变换器控制方法-CN202310167190.5在审
发明人：叶剑;郭寰宇 -专利权人：哈尔滨工业大学（深圳）
申请日： 2023-02-27 - 公布日： 2023-06-23 - 主分类号： G05B13/04 文献下载
摘要：本发明公开了一种基于TD3强化学习算法的DC‑DC变换器控制方法，包括：基于DC‑DC变换器获取状态观测向量；基于TD3强化学习算法构建强化学习控制器模型，其中，所述强化学习控制模型包括强化学习智能体和奖励模块，将所述状态观测向量输入所述强化学习智能体，得到行为动作，并形成新状态观测向量；所述奖励模块基于所述行为动作得到即时奖励；基于所述即时奖励更新所述强化学习智能体的参数，直至收敛，得到训练好的强化学习控制器模型；基于所述训练好的强化学习控制器模型，实现对DC‑DC变换器的控制本发明可以有效提高变换器的动态响应性能。
基于 td3 强化学习算法 dc 变换器控制方法

[发明专利]组件化的强化学习模型处理方法、系统、设备和存储介质-CN202110171433.3在审
发明人：朱恒满;周正;张正生;刘永升 -专利权人：超参数科技（深圳）有限公司
申请日： 2021-02-07 - 公布日： 2021-05-28 - 主分类号： G06N20/00 文献下载
摘要：本申请涉及一种组件化的强化学习模型处理方法、装置、计算机设备和存储介质。包括：获取虚拟对象在与交互环境进行交互过程中所产生的交互数据；虚拟对象是由部署于云端的强化学习系统中的运行组件所控制；强化学习系统还包括学习组件和评估组件；通过学习组件，基于交互数据对强化学习模型进行迭代训练；在迭代训练的过程中，通过评估组件对迭代训练所得的强化学习模型进行评估，根据评估所得的结果判断迭代训练所得的强化学习模型是否满足交互条件；若否，则根据迭代训练所得的强化学习模型对运行组件关联的模型进行更新，以使运行组件基于更新的强化学习模型控制虚拟对象。采用本方法能够降低在不同业务中复用强化学习模型训练框架的复杂度。
组件强化学习模型处理方法系统设备存储介质

[发明专利]基于超参优化的深度强化学习模型的训练方法、装置-CN202011621981.3在审
发明人：张玥;尹泽夏;霍雨森;王小波;郑宇 -专利权人：京东城市（北京）数字科技有限公司
申请日： 2020-12-31 - 公布日： 2021-11-30 - 主分类号： G06N20/00 文献下载
摘要：本申请公开了一种基于超参优化的深度强化学习模型的训练方法、装置，其中，方法包括：获取多个初始超参数组合，和多个第一深度强化学习模型；采用初始超参数组合中的多个超参数训练多个第一深度强化学习模型，以得到与多个第一深度强化学习模型分别对应的训练评价指标；根据训练评价指标从多个第一深度强化学习模型之中筛选出第二深度强化学习模型；采用与第二深度强化学习模型对应的多个目标超参数对初始超参数组合进行优化处理，以形成目标超参数组合；得到目标深度强化学习模型。由此，将超参数优化与模型训练结合起来实现深度强化学习模型的训练，不仅可训练出性能更高的深度强化学习模型，而且可使训练出的模型适应更广泛的应用场景。
基于优化深度强化学习模型训练方法装置

[发明专利]强化学习模型的训练方法及装置-CN202311168598.0在审
发明人：杜梦雪;暴宇健 -专利权人：深圳须弥云图空间科技有限公司
申请日： 2023-09-12 - 公布日： 2023-10-20 - 主分类号： G06N3/092 文献下载
摘要：本公开涉及计算机技术领域，提供了一种强化学习模型的训练方法及装置。该方法包括：获取使用设定强化学习算法对第一强化学习模型进行训练得到的第二强化学习模型；将相同的训练数据分别输入到第一强化学习模型和第二强化学习模型，对应得到第一输出数据组和第二输出数据组；根据训练数据、第一输出数据组、第二输出数据组和设定的总损失函数获取总损失函数值，其中，总损失函数的自蒸馏损失函数部分根据第一输出数据组和第二输出数据组的距离得到；根据总损失函数值调整第一强化学习模型，直到第一强化学习模型收敛，得到训练好的目标强化学习模型。本公开的技术方案可以提高强化学习模型在实际应用中的泛化能力和可复现性。
强化学习模型训练方法装置

[发明专利]一种人工深度情感博弈强化学习的智能发电控制方法-CN201811408219.X在审
发明人：殷林飞;王涛;高奇;赵陆林;张斌;李晟源 -专利权人：广西大学
申请日： 2018-11-23 - 公布日： 2019-03-19 - 主分类号： H02J3/24 文献下载
摘要：本发明提出一种人工深度情感博弈强化学习的智能发电控制方法，该方法将人工情感强化学习算法和深度强化学习算法进行结合，用于智能发电控制中。该方法同时融合了人工智能中的人工情感、强化学习、深度神经网络算法和博弈理论。人工深度情感强化学习算法将深度神经网络和人工情感融入强化学习框架中，深度神经网络用以改善传统强化学习的概率更新策略；人工情感将发电系统信息用情感量化函数进行量化，用以更新传统强化学习的学习率、折扣因子和输出动作值所提人工深度情感博弈强化学习的智能发电控制方法具有有效性、可行性、强鲁棒性、快速性。
强化学习发电控制人工情感强化学习算法博弈智能神经网络区域控制误差神经网络算法量化人工智能博弈理论发电系统概率更新功率指令频率偏差输出动作折扣因子快速性鲁棒性发电机组输出融合融入更新学习

[发明专利]基于多智能体协作系统的深度强化学习方法和装置-CN202210715660.2有效
发明人：丘腾海;付清旭;蒲志强;刘振;易建强 -专利权人：中国科学院自动化研究所
申请日： 2022-06-23 - 公布日： 2022-09-27 - 主分类号： G06F30/27 文献下载
摘要：本发明提供一种基于多智能体协作系统的深度强化学习方法和装置，涉及人工智能技术领域，所述方法包括：在一次深度强化学习中，基于预先构建的深度强化学习网络和当前观测数据获取多智能体协作系统对应协作图的当前分配调整动作，基于当前分配调整动作获取当前奖惩数据，基于当前奖惩数据优化深度强化学习网络，重复执行上述步骤，直至达到预设收敛条件或者达到预设学习次数；通过多次深度强化学习更新协作图的当前分配调整动作，而不更新智能体的实际动作，以简化深度强化学习的步骤，实现在深度强化学习奖励稀疏的情况下，快速地进行多次深度强化学习积累更多的奖励，从而提高深度强化学习网络的训练效率以及收敛速度慢。
基于智能体协系统深度强化学习方法装置

[发明专利]面向深度强化学习对抗攻击的模型增强防御方法-CN202010896464.0在审
发明人：陈晋音;王雪柯;章燕 -专利权人：浙江工业大学
申请日： 2020-08-31 - 公布日： 2020-12-11 - 主分类号： G06F21/57 文献下载
摘要：本发明公开了一种面向深度强化学习对抗攻击的模型增强防御方法，包括：(1)根据A3C模型，从自动驾驶场景中采集每个线程训练所需的样本数据；(2)针对每个线程构建由子Actor网络模型和子Critic网络模型组成的子强化学习模型，设定Actor损失函数和Critic损失函数；(3)针对每个线程对应的子强化学习模型，根据Actor损失函数对子Actor网络模型进行优化学习；根据Critic损失函数对子Critic网络模型进行优化学习；(4)利用子强化学习模型的参数更新A3C模型对应的主强化学习模型的参数，实现对主强化学习模型的训练，得到能够抵抗对抗攻击的主强化学习模型。
面向深度强化学习对抗攻击模型增强防御方法

[发明专利]交易数据分析预测方法及装置-CN202111093221.4在审
发明人：朴雪威;王丽静;杨春明;赵卉 -专利权人：中国银行股份有限公司
申请日： 2021-09-17 - 公布日： 2021-12-17 - 主分类号： G06Q40/04 文献下载
摘要：本发明公开了一种交易数据分析预测方法及装置，涉及大数据技术领域，该方法包括：创建深度强化学习环境，定义有状态参数、行为参数和反馈参数；所述状态参数记录股票交易数据，所述行为参数记录股票交易行为，所述反馈参数记录由股票交易行为导致股票交易数据的变化；基于所述深度强化学习环境创建深度强化学习代理，定义有深度强化学习神经网络的模型结构和训练函数，以及根据模型输出选择的股票交易行为；利用所述深度强化学习代理构建深度强化学习神经网络，并对所述深度强化学习神经网络进行训练和测试，得到优化的深度强化学习神经网络；利用优化的深度强化学习神经网络对股票交易数据进行分析预测，提高股票交易数据分析预测的准确性。
交易数据分析预测方法装置

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
下一页»
尾页
共 100000 条